實用的RAG系統：從知識庫到檢索增強生成：上下文困境：為何檢索需要轉換

這上下文困境源自於基本的架構不匹配：人類資料是 單一且無結構的，而大型語言模型（LLMs）則是 受限於詞元數量且基於注意力機制的。若未經過轉換，直接將原始資料輸入大語言模型會導致「上下文污染」，使無關的雜訊降低推理表現。

轉換不僅僅是技術上的分割；它是一項 策略性決策。分塊不只是分割文字。它是選擇檢索時搜尋的單位，以及後續生成所使用的單位。這表示分塊同時影響召回率、排序、延遲、答案品質、詞元預算與引用可讀性。